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摘要 : [目的 /意义 ] 科技 文献 中 各 种 特征 项 及 其 之 间 的 关联 是 构成 多 种 多 样 共 现 现象 的 基本 单元 ,通过 控 
据 共 现 特 征 项 之 间 的 关联 , 共 现 分 析 可 以 从 不 同 角度 探测 科学 与 技术 活动 规律 的 方方面面 ,为 科研 管理 者 和 研 
究 者 等 提供 一 个 全 方位 、 多 角度 观察 科学 发 展 的 新 视角 。[ 方法 过程] 通过 对 多 重 共 现 的 基础 理论 研究 ,构建 
一 套 独特 的 多 重 共 现 数据 模型 基础 理论 体系 ,该 理论 体系 包括 :多 重 共 现 的 定义 、 多 重 共 现 的 研究 范畴 、 用 于 多 
重 共 现 的 变量 符号 、 多 重 共 现 的 矩阵 定义 、 多 重 共 现 的 数据 组 织 形 式 以 及 多 重 共 现 的 延展 系数 计算 公式 与 应 用 
范畴 。 此 外 ,基于 多 重 共 现 的 交叉 图 可 视 化 方式 ,构建 可 用 于 分 析 3 个 或 以 上 特征 项 共 现 关 系 的 知识 发 现 方 
B clu c a [ 结果 /结论 ] 通过 该 基础 理论 体系 的 构 


研究 ,选取 不 同 的 多 重 共 现 应 用 案例 ,证 明 该 方法 可 应 用 于 研究 领域 .研究 机 构 、 机 构 间 对 比 、 研 究 学 者 等 
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乡 面 的 分 析 , 同 时 具有 较 好 的 分 析 效果 。 由 于 该 方法 体系 具有 分 析 角 度 多 维 化 和 分 析 方法 多 样 化 的 特点 ,通过 
e ES 实现 一 重 、 二 重 共 现 等 的 分 析 效 果 外 ,还 能 揭示 出 比 一 般 共 现 更 为 广泛 和 深入 的 知识 内 


eo 
CN 关键 词 : 多 重 共 现 多 特征 项 共 现 多 源 数据 ”数据 模型 ”知识 发 现 
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1 _ 共 现 的 分 析 范 畴 

科技 文献 中 的 共 现 是 指 在 论文 专利 等 文献 中 相 
同 研 不 同类 型 特征 项 共同 出 现 的 现象 ,如 多 篇 期 刊 
论文 之 间 共同 出 现 的 主题 (关键 词 ) .共同 出 现 的 合 
作 作者 、 合 作 机 构 以 及 论文 与 关键 词 . 机 构 与 作者 共 
同 出 现 等 ,以 及 专利 文献 中 共同 出 现 的 发 明 人 发明 
人 与 IPC 分 类 号 共同 出 现 等 都 属于 共 现 研究 的 范 
mU. 


构 与 变化 。 在 计算 机 技术 的 辅助 下 , 共 现 分 析 在 构建 
概念 空间 和 本 体 实现 语义 检索 .改进 知识 组 织 中 文本 
分 类 效果 、 分 析 文 献 中 知识 内 容 关 联 、 挖 掘 知 识 价值 等 
方面 彰显 出 独特 的 功能 ,正在 成 为 支撑 知识 挖掘 和 知 
识 服 务 的 重要 手段 和 工具 。 在 知识 表达 中 ,能够 体现 
言 息 的 内 容 特 征 和 外 部 特征 不 仅 具 有 语义 内 涵 而 且 是 
相互 关联 的 ,这 些 内 容 特 征 与 外 部 特征 共同 构成 了 文 
本 知识 关联 揭示 和 知识 挖掘 的 基础 ” 。 

在 文献 计量 数据 中 , 共 现 现象 并 不 是 个 例 ,而 是 大 


共 现 分 析 是 将 各 种 信息 载体 中 的 共 现 信息 定量 化 
的 分 析 方法 ,以 心理 学 的 邻近 联系 法 则 所 和 知识 结构 
及 映射 原则 为 方法 论 基础 。 通 过 共 现 分 析 , 人们 可 以 
发 现 研究 对 象 之 间 的 亲 玻 关 系 , 控 掘 隐 含 的 或 潜在 的 
有 用 知识 ,并 揭示 研究 对 象 所 代表 的 学 科 或 主体 的 结 


量 存在 于 论文 数据 中 的 普遍 现象 。 各 种 类 型 的 特征 项 
共 现 将 离散 的 论文 数据 联结 成 一 个 有 机 的 整体 ,可 以 
从 多 个 角度 揭示 科学 活动 规律 ,如 期 刊 论文 的 关键 词 
直接 反映 科学 研究 的 主题 及 其 细节 、 方 法、 技术 ,对 关 
键 词 的 共 现 现象 进行 分 析 可 以 用 来 考察 科学 在 知识 、 
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方法 ,维度 上 的 结构 ;专利 发 明 人 作为 技术 发 明 的 主 
体 ,发 明 人 共 现 研究 是 专利 技术 合作 在 个 人 层面 的 
直接 表征 ;论文 和 专利 各 自 及 相互 之 间 的 引用 , 作 
者 /发 明 人 之 间 、 研 究 团体 之 间 、 机 构 之 间 乃 至 国家 
之 间 的 引用 是 无 形 学 院 的 有 形 标志 ,通过 对 这 些 引 
用 与 被 引用 现象 的 分 析 可 以 获知 科学 交流 的 模式 、 
规律 和 特征 。 

由 此 看 来 ,各 种 特征 项 及 其 之 间 的 关联 是 构成 多 
种 多 样 共 现 现象 的 基本 单元 ,通过 挖掘 共 现 特征 项 之 
间 的 关联 , 共 现 分 析 可 以 从 不 同 角度 探测 科学 (主要 通 
过 论文 表征 ) 与 技术 ( 主要 通过 专利 表征 ) 活 动 规律 的 
方方面面 ,为 科研 管理 者 、 科 学 研究 者 .技术 发 明 者 和 
技术 应 用 者 等 提供 一 个 全 方位 ,多 角度 观察 科学 发 展 
的 新 视角 。 
之 到 目前 为 止 ,国内 外 许多 研究 学 者 已 经 对 论文 中 
特征 项 之 间 的 共 现 分 析 方 法 和 工具 进行 了 多 方面 的 研 
HR. Fano" JE 1956 年 首次 提出 文献 耦合 的 概念 
MEBER; H. Small 提出 了 共 被 引 分 析 概 念 ;H. White 
种 B，Griffith” 提 出 作者 共 被 引 分 析 方 法 ; MCallon 
等 9 首次 提出 了 共 词 分 析 方法 ;中 国学 者 郑 华 川 等 ” 
提出 共 篇 分 析 ;D. Zhao 等 ”提出 了 作者 参考 文献 耦合 
代 镶 ; 刘 志 辉 等 ”提出 作者 关键 词 耦合 分 析 方法 ; 工 . 
YEY 等 "中 应 用 了 机 构 与 关键 词 共 现 分 析 方 法 。 而 在 
共 现 分 析 的 可 视 化 工具 上 , 共 涉 及 10 多 种 软件 工具 ， 
他 插 科学 计量 学 研究 软件 Bibexcel ,统计 学 软件 SPSS, 
引 实 网 络 可 视 化 软件 CiteSpace 、 社 会 网 络 分 析 软 件 
Ucfret 和 Pajek ,以 及 其 他 共 现 分 析 工 具 如 SCI-map( 引 
K UL) , Histeite ( 5] JH IHE) DIVA (文献 耦合 、 
合 著 分 析 ) 等 ,这 些 软件 工具 可 对 不 同类 型 的 共 现 分 析 
进行 可 视 化 显示 ,有 助 于 共 现 分 析 的 有 效 解读 和 可 视 
化 展示 。 

但 是 ,对 于 多 特征 项 共 现 进行 过 相关 揭示 和 分 析 
的 学 者 并 不 多 见 。 其 中 有 美国 科学 计量 专家 Mor 
ris 人 为 了 揭示 两 种 特征 项 之 间 的 关联 ,与 其 团队 借 
助 于 两 个 共 现 矩阵 相同 特征 项 之 间 的 关联 ,开发 了 交 
又 图 和 时 间 线 技术 并 进行 了 应 用 研究 ,两 种 技术 可 以 
很 好 地 弥补 目前 可 视 化 技术 不 能 揭示 两 种 特征 项 关联 
的 缺陷 。 冷 伏 海 等 '” 认为 目前 共 词 分 析 研 究 主要 关 
注 二 元 词 对 共 现 的 研究 ,对 三 元 甚至 多 元 词组 的 共 现 
很 少 涉及 ,并 在 研究 中 提出 基于 位 向 量 的 三 元 共 词 分 
析 算 法 和 基于 坐标 图 的 三 元 共 词 结果 分 析 方法 。 张 自 
立 等 认为 文献 特征 共 现 分 析 可 以 揭示 文献 的 内 容 
关联 和 特征 项 隐 含 的 寅 意 ,并 基于 2 一 模 网 络 模型 控 
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讨 不 同 特征 共 现 的 分 析 方 法 ,有 利于 挖掘 不 同 特 征 共 
现 网 络 的 深层 次 结构 关系 。L. Leydesdorff ' 把 “ 异 质 
网 络 "的 思想 进一步 扩展 到 了 3 一 模 网 络 ,他 把 作者 一 
期 刊 一 关键 词 的 特征 项 联系 起 来 ,通过 不 同类 型 节点 
在 同一 网 络 中 的 展现 ,不 仅 有 利于 分 析 同 一 类 型 节点 
间 以 及 不 同类 型 节点 间 的 关系 ,而 且 也 是 研究 网 络 更 
加 真实 的 反映 。 

目前 国内 外 对 特征 项 共 现 的 研究 方法 以 及 工具 软 
件 多 集中 在 两 个 特征 项 之 间 共 现 的 研究 ”” ,并 且 多 
是 通过 融合 多 种 两 个 特征 项 共 现 的 方法 来 揭示 多 特征 
项 共 现 的 关系 “| ,而 直接 对 3 个 或 以 上 特征 项 之 间 的 
共 现 分 析 方 法 及 可 视 化 方式 的 研究 并 不 多 见 , 庞 弘 乐 
等 人 ”使 用 多 重 ( 多 特征 ) 共 现 的 分 析 方 法 并 开发 
相应 的 可 视 化 图 谱 分 析 工 具 来 对 科研 机 构 / 科 研 领 域 
进行 分 析 ,分析 的 视觉 和 范围 大 大 扩大 ,能够 发 气 出 比 
一 般 共 现 更 深入 和 广泛 的 知识 。 可 见 , 如 果 能 够 直接 
从 3 个 或 以 上 特征 项 共 现 的 视觉 出 发 ,通过 系统 的 知 
识 发 现 方法 研究 来 揭示 3 个 或 以 上 特征 项 之 间 的 共 现 
关系 ,在 反映 科学 技术 活动 规律 和 科学 知识 领域 方面 
可 以 增加 多 个 分 析 角 度 和 信息 来 源 , 有 很 大 的 知识 控 
掘 和 探索 价值 。 此 外 如 果 能 通过 整合 科技 文献 数据 库 
的 多 源 数据 进一步 挖掘 共 现 特征 项 之 间 的 关联 ,基于 
科技 文献 多 源 数 据 融合 及 多 特征 项 共 现 分 析 技 术 的 情 
报 分 析 方 法 将 有 利于 研发 融合 多 源 大 数据 的 个 性 化 价 
值 发 现 方法 ,并 通过 研究 多 学 科 科 技 文献 领域 的 数据 
融合 和 关联 关系 ,发掘 学 科 一 般 发 展 及 其 交叉 发 展 的 
价值 范式 。 
2 多 重 共 现 的 定义 与 研究 范畴 

本 论文 把 科技 文献 (包括 论文 .专利 等 文献 ) 中 单 
个 特征 项 在 多 篇 文献 中 的 重复 出 现 称 作 一 重 共 现 ,两 
个 特征 项 的 共 现 称 为 二 重 共 现 ,以 此 类 推 ,3 个 或 以 上 
特征 项 共 现 都 称 作 多 重 共 现 。 因 此 ,本 论文 把 多 重 共 
现 (multiple occurrence) 定义 为 3 个 或 以 上 相同 类 型 或 
不 同类 型 特征 项 共同 出 现 的 现象 ,如 作者 一 关键 词 一 
发 表 期 刊 3 个 特征 项 同时 在 多 篇 论文 中 出 现 ,发 明 
人 一 IPC 分 类 号 一 关键 词 、 作 者 一 引文 作者 一 关键 
词 一 引文 关键 词 等 3 个 或 以 上 特征 项 的 共 现 都 属于 多 
重 共 现 研究 的 范畴 。 

多 重 共 现 与 二 重 共 现 相 比 ,如 作者 一 关键 词 一 发 
表 期 刊 的 多 重 共 现 比 作者 一 关键 词 ,作者 一 发 表 期 刊 
等 的 二 重 共 现 能 够 揭示 更 为 深入 的 知识 。 分 析 作 者 一 
关键 词 一 发 表 期 刊 的 多 重 共 现 就 相当 于 同时 分 析 作 
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者 一 关键 词 ,作者 一 发 表 期 刊 .关键 词 一 发 表 期 刊 这 3  ” 还 能 够 进一步 反映 产 学 研 的 演化 路 径 发 展 关 系 。 图 1 
个 二 重 共 现 现象 及 其 之 间 的 关系 。 如 表 1 所 示 , 可 以 ” 则 直观 地 显示 多 重 共 现 与 一 般 特征 项 共 现 分 析 对 象 的 


优势 ,特别 是 在 分 析 论 文 一 专利 多 特征 项 交 


看 出 多 重 共 现 现象 对 于 揭示 深度 知识 方面 有 着 独特 的 。 区 别 。 图 2 显示 出 多 源 科 技 文献 (论文 ,专利 专车 等) 


又 共 现时 ， ”在 多 重 共 现 中 可 能 会 呈现 的 关联 关系 示例 。 


R1 不 同 特征 项 共 现 所 能 揭示 的 知识 内 容 


特征 项 共 现 个 数 例子 分 析 的 视 所 能 揭示 的 知识 
一 个 特征 项 (一 重 共 现 ) 作者 高 产 作者 高 发 文 量 的 作者 
关键 词 高 频 关 键 词 热门 研究 主题 词 
两 个 特征 项 (二 重 共 现 ) 关键 词 一 关键 词 共 词 分 析 关键 词 聚 类 揭示 研究 主题 
作者 一 关键 词 作者 与 关键 词 关系 分 析 作者 的 研究 领域 
三 个 或 以 上 特征 项 (多 重 共 现 ) ”作者 一 关键 词 一 发 表 期 刊 作者 ,关键 词 与 发 表 期 刊 之 间 的 关系 ”作者 偏好 在 某 期 刊 上 所 发 表 的 主题 类 型 . 某 期 
分 析 刊 的 固定 作者 群 及 主题 研究 领域 与 变化 等 
作者 一 关键 词 一 引文 关键 词 作者 ,关键 词 与 引文 关键 词 之 间 的 关 ”通过 关键 词 聚 类 和 引文 关键 词 聚 类 共同 反 
系 分 析 映 作者 的 研究 领域 


论 交 一 专利 多 特征 项 交叉 共 现 ”论文 关键 词 一 专利 主题 词 一 专利 引 ”论文 与 专利 文献 在 关键 词 和 引文 间 ”反映 基础 研究 一 应 用 研究 在 关键 技术 节点 


(多 重 共 现 ) 文 一 论文 引文 


的 相互 关系 分 析 上 演化 路 径 的 变化 情况 


论文 作者 一 专利 发 明 人 一 论文 单 ”论文 与 专利 文献 在 作者 和 机 构 间 的 ”反映 基础 研究 一 应 用 研究 在 研发 人 员 和 研 


> 
(© 

er 位 一 专利 权 人 
(Co) 


相互 关系 分 析 发 机 构 之 间 的 关联 情况 ,有 助 于 找 出 该 领域 
的 关键 技术 人 员 与 重点 研发 和 应 用 机 构 
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四 (多 ) 重 共 现 
作者 一 文献 一 引文 作者 一 引文 ) 


重 共 现 
RRE 
(文献 一 引文 》 


图 1 多 重 共 现 与 二 重 共 现 研究 对 象 的 区 别 ( 期刊 论文 ) 


3 ”多 重 共 现 特征 项 的 变量 符号 


FE S. Morris 的 博士 论文 中 ,使 用 图 3( 本 论文 进行 


了 编译 ) 形 象 地 描绘 出 在 期 刊 论文 中 各 特 和 和 


联系 。 箭 头 所 示 及 箭头 旁边 的 文字 所 述 代 表 两 个 特征 


并 且 S. Morris 也 用 各 特征 项 名 称 的 缩写 作为 变 
量 的 名 称 来 代表 特征 项 ,因此 ,本 论文 的 研究 当中 也 沿 
用 了 部 分 S，Morris 用 于 定义 期 刊 论文 中 不 同 特征 项 


E 项 之 间 的 


的 变量 符号 ,并 对 其 在 科技 文献 (包括 论文 和 专利 ) 中 
的 应 用 进行 了 扩展 ( 见 表 2) 。 


项 之 间 的 交互 关系 ,如 论文 一 关键 词 ,代表 了 不 同 的 关 


键 词 都 可 以 在 多 篇 论文 中 出 现 多 次 ;而 关键 


4 多重 共 现 的 矩阵 定义 与 数据 组 织 形式 


则 代表 了 每 篇 论文 可 以 对 应 包含 多 个 关键 词 。 


在 文献 计量 研究 中 ,为 了 实现 对 共 现 现象 的 数据 
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iv 合 作 期 刊 


ChinaX 


单位 


对 应 包含 
多 个 作者 


对 应 
多 个 
在 多 个 特征 项 


g 


关键 词 
对 应 包含 
多 篇 论文 


( 


在 多 个 特征 项 中 


每 次 对 应 一 
个 特征 项 


y (2) ERM a 
《发明 人 一 专利 权 人 一 A 
引证 论文 作者 一 引证 论文 单位 ) AAA CSS 
发 明 人 N 
N 


Wy o£) 
发 明 人 一 专利 一 引 


ERIM 
著作 者 一 引 


三 (多 ) 重 共 现 
# 利 关键 词 一 专著 关键 词 一 专利 申请 向 


对 应 一 


个 作者 


E 多 个 特征 项 
中 出 现 一 次 


出 现 一 次 
对 应 包含 多 


中 出 现 一 次 
在 多 个 特征 项 
和 出现 一 次 


g 


图 3 S. Morris 的 期 刊 论文 特 征 项 关系 UU 


12:3 
结构 ,首先 要 对 数据 进行 数学 处 至 
阵 ,在 此 基础 之 上 ,运用 数据 挖掘 以 及 各 种 可 视 化 的 分 
析 方 法 找到 隐 仿 在 矩阵 中 的 数据 关系 。 各 种 共 现 分 析 


昌 , 用 定量 分 析 方 法 来 测度 共 现 特 生 


E 项 之 间 的 关联 
,转换 为 各 种 共 现 矩 


虽然 在 应 用 层面 上 揭示 了 不 同 的 科学 活动 现象 ,但 和 矩 
阵 分 析 技 术 研 究 却 大 同 小 异 … 。 
共 引 、 共 词 及 其 他 同 种 特征 项 共 现 矩阵 在 情报 学 


领域 应 用 极为 广泛 ,在 共 现 研究 的 早期 ,由 于 计算 机 存 


64 


储 技术 、 处 理 数据 速度 及 基于 矩阵 的 数据 挖掘 技术 的 
限制 ,很 多 数据 分 析 是 基于 同 种 特征 项 共 现 矩阵 的 , 随 
着 计算 机 技术 日 新 月 异 的 发 展 ,可 视 化 技术 对 多 个 矩 
阵 转换 的 需求 不 断 增 加 ,研究 者 逐步 认识 到 矩阵 转换 
研究 的 重要 性 。 荷 兰 莱 顿 大 学 的 学 者 上 Englesman 和 
A. van Raan 发 现 原始 的 二 值 共 现 和 矩阵 可 以 通过 矩阵 
乘法 转换 为 相应 的 对 称 共 现 矩阵 。 美 国 科 学 计量 
专家 S，Morris 在 博士 论文 中 将 各 种 共 现 矩 阵 之 间 的 


ChinaXiv 合 作 期 刊 


EIR. 基于 科技 文献 多 重 共 现 的 数据 模型 理论 与 知识 发 现 应 用 范例 研究 [J]. 图 书 情报 工作 ,2019 ,63(9):61 -72. 


数学 转换 关系 作 了 系统 和 全 面 的 研究 ” 。 
R2 代表 不 同 特征 项 的 变量 符号 


变量 符号 英文 名 中 文 名 
p paper 论文 
ap paper author 论文 作者 
jp paper journal 论文 期 刊 
yp paper year 发 表 论 文 的 年 份 
ip paper institution 发 表 论 文 的 单位 
kwp paper keyword 论文 关键 词 
r reference 参考 文献 
ar reference author 参考 文献 的 作者 
jr reference journal 参考 文献 的 期 刊 
yr reference year 参考 文献 的 年 份 
ir reference institution 参考 文献 的 单位 
kwr reference keyword 参考 文献 的 关键 词 
pat patent 专利 
pi patent inventor 专利 发 明 人 
pa patent assignee 专利 权 人 
py patent application year 专利 申请 年 
?2 patent applicant country 利 申请 国 
e patent keyword 专利 关键 词 
j : reference patent 参考 专利 


写 在 人 工 智能 .工程 ,物理 .化 学 .计算 机 科学 等 领域 
岂 。 图 结构 被 广泛 应 用 ,是 一 种 很 好 的 数据 关系 表现 广 
式 5 图 4 明晰 地 表达 了 两 个 特征 项 (论文 与 参考 文献 ) 
AAMAR, 展示 了 共 现 现象 背后 特征 项 之 间 的 关联 
线 斧 。 然 而 ,要 对 图 结构 所 表示 的 各 种 复杂 关系 进行 
播 浏 ,将 图 的 关联 结构 存储 在 计算 机 中 ,必须 将 图 结构 
转 驳 为 结构 化 的 数据 以 便 处 理 。 在 文献 计量 研究 中 ， 
E 网 络 。 


c P. r. 
c p f, 
o 论文 E 参考 文献 

p E 

P r 

r 

r 

r 


图 4 ”论文 与 参考 文献 之 间 关系 的 图 结构 
首先 给 出 矩阵 的 通用 定义 :由 m*n 个 数 ai(i=1， 
2,.…,m;] =1,2,…,n) 排 成 的 m 行 n 列 的 表 : 


al ao O 8, 
83 8» a 
aa 85, 7 83 


称 为 一 个 巴 行 a 列 的 矩阵 或 m*a 和 矩阵 , 简 记 为 A 
=(ai)mxn。 数 ai 称 为 矩阵 A 的 第 i 行 第 j 列 或 (i， 


j ) 元素 ,i 称 为 元 素 a; 的 行 标 ,j 称 为 元 素 a; 的 列 标 。 特 
殊 地 ,nx*an 和 矩阵 也 称 为 n 阶 方 阵 。 

在 社会 网 络 分 析 中 ,不 对 称 和 矩阵 的 列 和 行 分 别 代 
表 行动 者 (actor) 和 指标 ,对 于 对 称 的 正方 阵 , 行 与 列 代 
表 完 全 相同 的 行动 者 ;在 文献 计量 研究 中 ,对 于 共 现 现 
象 的 矩阵 描述 ,赋予 共 现 矩 阵 的 行 与 列 特定 的 含义 : 行 
与 列 分 别 代表 共同 出 现 的 特征 项 。 和 矩阵 中 的 元 素 代表 
行 与 列 对 应 特征 项 之 间 是 否 相 关 或 者 关系 的 强 弱 。 

在 S. Moris" 的 博士 论文 当中 ,其 对 两 个 特征 项 
共 现 现象 的 矩阵 定义 为 : 
lirie p 特征 项 i 与 特征 项 j 共同 出 现 的 频次 为 n 

O ”特征 项 i 与 特征 项 j 没有 共同 出 现 

x, x, 代表 两 种 不 同 的 特征 项 (如 关键 词 , 作 者、 发 
表 期 刊 等 ) ,ij 分 别 为 x x, 的 具体 对 象 。 
其 对 应 的 图 结构 见 图 5。 
本 文 在 S. Morris 研究 的 基础 上 ,将 其 对 二 重 共 现 
分 析 的 研究 理论 扩展 到 多 重 共 现 领域 ,包括 把 S. Mor- 
ris 对 共 现 的 矩阵 定义 扩展 到 多 重 共 现 领域 ,同时 在 共 
现 数 据 组 织 形式 上 也 从 二 维 的 矩阵 形式 扩展 到 多 元 组 
的 表示 形式 ,以 适用 于 多 重 共 现 的 分 析 。 

本 文 把 S，Morris 的 矩阵 定义 扩展 到 多 
域 特征 项 的 共 现 关系 ,并 定义 : 

"—— l BHED 与 特征 项 jk 等 共同 出 现 的 频次 为 n 

i 0 特征 项 ij k 等 没有 共同 出 现 

其 中 ,该 多 维 矩 阵 定义 所 代表 的 图 结构 如 图 6 所 
示 , 相 同 线 型 的 连 线 代表 该 几 个 特征 项 之 间 共 同 出 现 
的 频率 ,如 ou [x 5x 35] 代表 了 特征 项 集合 x 中 序号 
为 1 的 特征 项 与 x, x, 中 序号 为 1 的 特征 项 所 共同 出 
现 的 频次 。 

在 数据 组 织 形式 上 ,S，Morris 使 用 的 是 传统 二 维 
和 矩阵 来 表示 两 个 特征 项 之 间 的 共 现 关系 … : 


lil 
T 


EH: n 


BZN 


| 0, 0, UT Os 
0,, s ; 
Olx; x] = " 
LOL oom ocn Ou 
由 于 多 重 共 现 领域 涉及 到 的 是 3 个 或 以 上 特征 项 


的 关联 关系 ,传统 的 二 维 矩 阵 的 数据 组 织 形 式 已 不 能 
适用 于 多 重 共 现 分 析 的 要 求 ,因此 本 文中 通过 使 用 多 
元 组 R(x ,x, ,x3… ,Value) 来 表示 多 维 数据 信息 ,用 于 
分 析 多 重 共 现 特征 项 之 间 的 关系 。 定 义 value; JJ x, 
中 特征 项 i 与 x, 中 特征 项 j、x 中 特征 项 k 等 共同 出 现 
的 频次 , 即 values. Ou. [xj xi;x…]。 通 过 从 二 维 
和 矩阵 扩展 到 多 元 组 的 数据 表示 形式 ( 见 图 7) ,以 适用 
于 多 重 共 现 的 数据 组 织 和 多 特征 项 的 共 现 分 析 。 
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x, 


特征 项 


注 : 序 号 1 至 nxw 代表 特 和 


E 项 ,该 特征 项 可 以 代表 论文 或 专利 的 关键 词 .作者 (发 明 人 ) .等 类 型 ;特征 


S 项 之 间 的 连 线 代 表 两 个 特征 项 共 
e, 
er 
© 
e 
© 
N 
e 
co 
N 
je, 
Q 


chinaXiv 
© 


特征 项 x 


On Om ... Om 


0[x; x] = e 


Dust ves ws ‘Qin 


特征 项 x 


矩阵 转化 为 多 元 组 


现 ,其 共 现 频次 用 数值 Oi [ X, 5 Xn ] 来 标识 
5 Morris 的 特征 项 组 对 图 结构 "| 


O111[X1;X2;Xs] 


0211[X1;X2;X3] 


O112[X1;X2;X3] 


0212[X1;X2;X3] 


nx? 
O nXa 


特征 项 x 


图 6 多 特征 项 的 组 对 图 结构 


R(xixovalue), 其 


vaule11 = 011 
P vaulelz = 012 


扩展 到 多 特征 
项 共 现 的 应 


R(x1,X2,X3.…,Value) ， 其 中 Valueijk...=Oijk.. [X1;X2;X3:…] 


图 7 多 特征 项 共 现 分 析 中 数据 组 织 形式 的 变化 


66 


C ninaA IVA E 


JE 37. 3k. 基于 科技 文献 多 重 共 现 的 数据 模型 理论 与 知识 发 现 应 用 范例 研究 [可 .图 书 情报 工作 ,2019 ,63(9 ) :61 - 72. 


在 上 述 的 矩阵 定义 中 ,使 用 了 共 现 频数 作为 共 现 矩 
阵 元 素 的 值 。 本 文 还 使 用 了 二 值 法 对 其 进行 定义 ,在 二 
值 矩 阵 中 ,所 有 元 素 的 取 值 均 为 0 或 1。 因 此 本 文 在 0; 
] 定 义 的 基础 上 ,对 025[xi; 
n 特征 项 i 与 特征 项 j 共同 出 现 的 频次 为 1 次 或 以 上 
0 ”特征 项 i 与 特征 项 j 没有 共同 出 现 


[xi x] S NIE E: Jas duet 


x; JAI O'i [35 1-354 3] 


对 O^ ixi; x]- | 


Oi Du; 


y 


M -| 特征 项 i 与 特征 项 j c 等 共同 出 现 的 频次 为 1 次 或 以 上 
”3 TLO RHET jk SEA 

以 下 举例 说 明 O DXi; x2; x JI O'i [xi 
] 所 代表 的 共 现 意义 ,假设 有 专利 文献 数据 集 
DI 如 表 3 所 示 : 


Xj; Xs 


RI 多 重 共 现 矩 阵 定 义 示 例 数据 集 


数据 集 D1 发 明 人 (pi) 申请 国家 (pc) 申请 年 份 (py) 关键 词 (pkw) 
专利 1 发 明 人 1, 发 明 人 2 国家 1 年 份 1 关键 词 1 ,关键 词 2 ,关键 词 3 
专利 2 发 明 人 2, 发 明 人 3 国家 1 年 份 2 关键 词 4 ,关键 词 5 
专利 3 发 明 人 1 国家 2 年 份 2 关键 词 3 ,关键 词 4 
对 于 整个 数据 集 DI 来 说 : Fos o oec X Era [ns ns m] 
O 428] A 1; 关键 词 3] =2 ,代表 在 数据 集 DI 中 ， abd $5900. Eus pos] 
式 (2) 


RIAI 与 关键 词 3 共 现 2 次 。 
SF0 [发 明 人 1; 关 键 词 3] = 1 ,代表 在 数据 集 DI 中 ， 
发 月 人 1 与 关键 词 3 存在 共 现 (频次 在 1 次 或 以 上 )。 
0[ 发 明 人 1; 国家 2; 关 键 词 3] =1 ,代表 在 数据 集 
中 中 ,发明 人 1 与 国家 2 .关键 词 3 共 现 1 次 。 

D0'[ 发 明 人 1; 国家 2; 关 键 词 5] =0, 代 表 在 数据 
SERI 中 ,发 明 人 1 与 国家 2 关键 词 5 没有 共同 出 现 


xD 


5 ”多重 共 现 的 延展 系数 


> " JB FEX IE SX RUIHTGEeE 
ESIAS MEIT B GE JE RA Ea AI ES, S 

i Lr (s m, m, 分 别 为 特征 项 x 、…… Rs 
rc 含 的 所 有 不 同 的 对 象 数 , 则 有 公式 (1) -公式 
(4): 


imli 
mu 
3 


Na calx i2. 


E' ue 0, Js PS T XQ) 

' i E Nou KUF iL US x] 
E' (x; EADE EIN OX O^. T Zr Ram 

式 (4) 


延展 系数 Ex 和 了 上 % 可 应 用 的 范畴 为 : 

Ex :用 于 分 析 某 特征 项 在 每 一 篇 科技 文献 中 的 平 
均 数量 分 布 状况 ,如 每 篇 期 刊 论文 平均 采用 多 少 个 关 
键 词 , 某 年 申请 的 专利 平均 有 多 少 个 发 明 人 ,在 某 年 某 
期 刊 上 论文 的 平均 作者 数 .平均 关键 词 数 的 多 少 等 。 

E% :用 于 分 析 某 特征 项 在 整个 数据 集 内 种 类 的 分 
布 状况 ,如 某 作者 在 多 少 种 期 刊 上 或 多 少年 内 发 表 过 
论文 , 某 发 明 人 在 某 年 内 申请 了 多 少 种 类 型 的 专利 , 某 
期 刊 在 多 少年 内 刊载 过 某 作者 的 论文 等 。 

以 下 举例 说 明 延 展 系数 上 ,和 下 和 ,所 能 揭示 的 意 


ee EE 义 ,假设 有 期 刊 论文 数据 集 D2, 如 表 4 Br s 
XO) 
表 4 多 重 共 现 延 展 系数 示例 数据 集 
数据 集 D2 作者 (ap) 发 表 期 刊 (jp) 发 表 年 份 (yp) 关键 词 (kwp) 
论文 1 作者 1, 作者 2 刊 1 年 份 1 关键 词 1 ,关键 词 2 ,关键 词 3 
论文 2 作者 2, 作 者 3 月 刊 2 年 份 1 关键 词 4 ,关键 词 5 
论文 3 作者 1 月 刊 2 年 份 2 关键 词 1 ,关键 词 2 
对 于 论文 1 来 说 : E,,( 作 者 1) =2.5 ,代表 在 数据 集 D2 中 ,作者 1 


E, (ap) =3, 代 表 论 文 1 的 每 个 作者 都 用 了 三 个 
关键 词 。 
E, (ap;jp) =3 ,代表 论 文 1 的 每 个 作者 在 每 种 发 
表 论 文 的 期 刊 上 都 用 了 三 个 关键 词 。 
对 于 整个 数据 集 D2 来 说 : 


发 表 的 每 篇 论文 平均 用 了 2.5 个 关键 词 。 
E.,,( 作 者 1, 期 刊 1) =3 ,代表 在 数据 集 D2 中 , 作 
者 1 在 期 刊 1 上 发 表 的 每 篇 论文 平均 用 了 3 个 关键 
inj. 
Es;,( 作 者 1) =2 ,代表 在 数据 集 D2 中 ,作者 1 在 两 
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甘 
=: 


China AA I 
CI nl laX IV [um | F RT] f | 


种 不 同 的 期 刊 上 发 表 过 论文 。 

E; (fet 2) =1, 代 表 在 数据 集 D2 中 ,作者 2 只 
在 一 年 里 发 表 过 论文 。 

Ez (ER 1,445 1) =2, 代 表 在 数据 集 D2 中 , 作 
者 1 在 年 份 1 内 只 在 一 种 期 刊 上 发 表 过 论文 。 

E, (ap) =2.4, 代 表 在 数据 集 D2 中 ,每 个 作者 发 
表 的 每 篇 论文 平均 用 了 2.4 个 关键 词 。 

E, (ap jp) =2.4, 代 表 在 数据 集 D2 中 ,每 个 作者 
在 每 个 期 刊 上 发 表 的 每 篇 论文 平均 用 了 2. 4 个 关键 
词 。 

E; (ap) 21.67 ,代表 在 数据 集 D2 中 ,平均 每 个 作 
者 在 1. 67 种 不 同 的 期 刊 上 发 表 过 论文 。 

E; (ap) 21.33 ,代表 在 数据 集 D2 中 ,平均 每 个 作 
者 在 1.33 个 不 同 的 年 份 内 发 表 过 论文 。 
CE, (ap,yp) =1.25, 代 表 在 数据 集 D2 中 ,平均 每 


个 作者 一 年 份 组 合 在 1. 25 种 不 同 的 期 刊 上 发 表 过 论 
文 , 即 在 活路 年 (有 论文 发 表 的 年 份 ) 内 的 活跃 作者 
(有 论文 发 表 的 作者 ) 平 均 在 1.25 种 期 刊 上 发 表 了 论 
文 。 
6 ”多重 共 现 的 知识 发 现 方法 体系 设计 
本 文 把 知识 发 现 的 概念 ,模式 一 般 过 程 与 多 重 共 
现 的 分 析 过 程 结合 起 来 ,在 设计 多 重 共 现 知识 发 现 方 
法 的 分 析 过 程 中 也 遵循 以 下 一 般 的 知识 发 现 分 析 步 
又 :多 源 科 技 文献 数据 搜集 与 清理 一 数据 处 理 ( 使 用 拢 
阵 转 换 技 术 、 降 维 技术 、 聚 类 分 析 等 ) 一 生成 多 重 共 现 
交 义 图 一 分 析 多 重 共 现 交 义 图 特点 一 汇总 知识 发 现 结 
论 。 本 文 设计 的 多 重 共 现 知识 发 现 的 方法 体系 如 图 8 
所 示 , 包 括 共 现 关联 强度 的 分 析 、 被 引 关 联 强度 的 分 
析 、 共 现 突 发 强度 的 分 析 3 个 方面 的 内 容 。 


多 源 科技 文献 数据 来 源 


多 重 共 现 知识 发 现 方法 体系 


共 现 关联 强度 的 分 析 
被 引 关联 强度 的 分 析 


揭示 多 特征 项 之 间 联 系 的 知识 内 容 


揭示 目前 的 关联 状况 


揭示 目前 被 关注 的 情况 


| 共 现 突 发 强度 的 分 析 


揭示 关联 的 变化 状况 


共 现 关联 强度 分 析 是 指 通过 对 多 个 特征 项 之 间 共 
现 频 次 大 小 的 分 析 ,揭示 其 潜在 的 共 现 关联 状况 ;被 引 
关 肾 强度 分 析 是 指 通过 对 多 个 特征 项 之 间 共 同 被 引 频 
次 天 小 的 分 析 , 来 揭示 其 被 关注 的 情况 ;而 共 现 突 发 强 
度 钢 分 析 是 指 通 过 对 多 个 特征 项 共 现 突 发 权 值 的 分 
析 , 来 揭示 其 变化 状况 及 突 发 的 热点 内 容 。 

通过 该 方法 体系 的 构建 可 以 完善 多 重 共 现 的 知识 
发 现 方法 ,从 多 源 数 据 来 源 并 从 多 个 角度 来 揭示 多 特 
征 项 之 间 的 关联 知识 ,包括 对 单个 特征 项 的 聚 类 或 频 
次 分 析 .两 个 特征 项 之 间 的 关联 关系 .乃至 多 个 特征 项 
之 间 的 关联 关系 。 因 此 ,多 重 共 现 知 识 发 现 方法 的 设 
计 除 了 可 分 析 三 重 或 以 上 的 多 重 共 现 之 外 ,还 同时 涵 
盖 了 一 重 , 二 重 共 现 的 分 析 。 

在 该 方法 体系 下 ,多 重 共 现 的 共 现 关联 强度 ,被 引 
关联 强度 以 及 共 现 突 发 强度 的 分 析 方 法 以 及 具体 的 分 
析 流 程 和 交叉 图 的 可 视 化 方式 也 不 尽 一 致 。 该 套 多 重 


图 8 多 重 共 现 的 知识 发 现 方法 体系 


利于 关联 强度 和 突 发 强度 的 知识 揭示 。 因 此 在 下 面 的 
多 重 共 现 知识 发 现 方法 应 用 范例 中 ,将 主要 基于 3 个 
特征 项 的 共 现 (三 重 共 现 ) 作 为 多 重 共 现 的 研究 样 例 ， 
而 3 个 以 上 特征 项 共 现 的 分 析 方 法 亦 可 依照 此 分 析 方 
法 来 作 进一步 的 类 推 。 此 外 该 方法 体系 的 数据 来 源 可 
以 来 源 于 论文 ,专利 ,专著 等 科技 文献 ,同时 针对 不 同 
类 科技 文献 间 的 多 重 共 现 组 合 所 分 析 的 角度 以 及 分 析 
意义 都 有 着 不 少 的 差异 ,因此 在 实证 分 析 中 还 需要 根 
据 研 究 目 的 和 分 析 需 求 ,选取 科技 文献 的 类 型 及 其 特 
征 项 组 合 来 进一步 分 析 和 研究 。 


7 ”三重 共 现 应 用 范例 研究 


多 重 共 现 的 知识 发 现 方法 可 根据 具体 研究 目的 ， 
研究 内 容 选 定 分 析 方 法 、 多 源 科技 文献 数据 集合 或 特 
征 项 的 组 合 来 进行 分 析 。 而 且 不 同类 型 文献 来 源 的 多 
重 共 现 项 的 组 合 ,会 依 研究 目的 、 分 析 方 法 和 数据 集 的 


共 现 的 知识 发 现 方法 可 以 分 析 3 个 或 以 上 论文 特征 项 
的 关系 ,但 是 由 于 在 涉及 到 3 个 以 上 特征 项 共 现 的 时 
候 , 其 共 现 的 频次 大 多 较 低 ,数据 离散 程度 较 高 ,并 不 
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不 同 ,而 揭示 出 不 同方 面 的 知识 内 容 。 
从 分 析 效 果 上 看 ,在 多 重 共 现 的 知识 发 现 方法 当 
中 ,由 于 是 基于 多 重 共 现 交叉 图 的 分 析 , 因 此 通过 多 重 
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EIR. 基于 科技 文献 多 重 共 现 的 数据 模型 理论 与 知识 发 现 应 用 范例 研究 [J]. 图 书 情报 工作 ,2019 ,63(9):61 -72. 


共 现 的 知识 发 现 方法 就 能 够 基于 一 个 三 重 共 现 交叉 图 
来 同时 实现 一 重 、 二 重 、 三 重 共 现 的 分 析 效 果 , 除 了 提 
高 分 析 效率 之 外 ,还 可 以 从 多 个 角度 揭示 出 更 为 广泛 
和 深入 的 知识 内 容 ,可 见 该 知识 发 现 方法 具有 一 定 的 
可 行 性 ,并 比 原来 的 一 重 、 二 重 共 现 的 可 视 化 分 析 效 果 
更 好 。 

该 套 知识 发 现 方法 体系 应 用 范围 较为 广泛 ,可 以 
对 研究 领域 .研究 机 构 、 机 构 间 对 比 、 研 究 学 者 等 多 个 


方面 进行 分 析 ,并 且 可 以 依据 分 析 的 目的 ,选取 该 套 方 
法 体系 中 的 一 个 或 多 个 分 析 方 法 进行 组 合 分 析 , 此 外 
如 果 结 合 论文 和 专利 等 多 源 科技 文献 数据 进行 分 析 ， 
还 可 以 进行 产 学 研 的 创新 演化 路 径 分 析 等 。 图 9 - 
11 所 示 的 多 组 多 重 共 现 可 视 化 图 是 对 多 重 共 现 的 知 
识 发 现 方法 体系 进行 了 应 用 范例 的 实证 研究 ,在 实证 
中 只 选用 了 期 刊 论文 的 单 源 数据 来 源 作 为 可 视 化 示 
例 。 
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E 图 9 机 构 一 期 刊 一 关键 词 三 重 共 现 交叉 图 (研究 领域 :胚胎 干细胞 ) 


己 图 9 是 针对 研究 领域 分 析 的 机 构 一 期 刊 一 关键 词 
三 鳃 共 现 交 又 图 (研究 领域 :胚胎 干细胞 ) ,其 可 用 于 
分 析 在 胚胎 干细胞 研究 领域 有 哪些 主要 研究 机 构 ,并 
且 分 析 其 在 主流 发 表 期 刊 中 的 研究 主题 分 布 等 等 。 从 
图 的 上 下 两 侧 区 域 可 以 看 出 ,胚胎 干细胞 研究 领域 主 
流 发 表 期 刊载 文 量 较 多 的 期 刊 按 由 多 到 少 顺序 依次 自 
左 向 右 排列 ,胚胎 干细胞 领域 载 文 量 居 前 的 期 刊 有 《中 
国 组 织 工程 研究 与 临床 康复 ;中 国 病理 生理 杂志 》 
《生命 科学 》 等。 各 期 刊 的 载 文 主题 不 尽 相同 , 比如 
《中 国 组 织 工程 研究 与 临床 康复 》 刊载 了 较 多 关于 胚 
台 干 细胞 的 “综述 文献 " 《解剖 学 报 》 刊载 的 主题 以 
“小 鼠 " 为 主 等 。 从 图 的 中 间 区 域 可 以 看 出 各 主要 研 
究 机 构 在 主流 发 表 期 刊 中 的 发 文 主题 分 布 情况 ,比如 
中 山大 学 在 《中 国 病理 生理 杂志 》 上 主要 发 表 关于 “ 细 
胞 分 化 ”与 “造血 干细胞 "研究 的 论文 ,在 《中 山大 学 学 
报 (医学 科学 版 )》 上 发 表 了 较 多 关于 “表皮 干细胞 ”的 


研究 论文 ,而 第 三 军医 大 学 在 4 中 国 临 床 康复 》 与 《第 


主题 的 论文 。 从 以 上 对 胚胎 干细胞 研究 领域 的 分 析 可 
以 看 出 ,基于 多 重 共 现 的 交叉 图 可 视 化 技术 以 及 知识 
发 现 分 析 方 法 能 够 较 好 地 揭示 出 该 研究 领域 当中 多 个 
过 征 项 的 关联 关系 ,相关 机 构 可 以 此 作为 参考 ,跟踪 该 
领域 的 研究 情况 以 及 发 展 趋势 。 

图 10 是 针对 研究 机 构 进行 分 析 的 年 份 一 发 表 期 
刊 一 作者 三 重 共 现 被 引 关 联 强度 交叉 图 (研究 机 构 : 中 
国 科学 院 文献 情报 中 心 ) ,可 以 用 于 观测 和 计量 研究 机 
构 中 被 引 频 次 较 高 的 作者 及 其 在 发 表 期 刊 \ 年 份 之 间 
的 被 引 分 布 情况 与 被 引发 展 趋势 ,并 发 现 机 构 中 的 高 
被 引 量 作者 .年份 ,发表 期 刊 等 。 

图 11 是 针对 研究 机 构 进行 分 析 的 多 重 共 现 突 发 
关联 强度 交叉 图 (研究 机 构 : 中 国 科 学 院 文献 情报 中 
心 ) ,在 三 重 共 现 的 突 发 强度 分 析 中 ,通过 观测 特征 项 
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图 11 


组 合 在 某 段 时 间 内 数据 量 的 突 发 情况 ,可 以 发 现 其 特 
征 项 组 合 的 突 发 特征 与 热点 研究 内 容 , 还 可 依 此 分 析 
其 突 发 原因 和 突 发 趋势 。 从 作者 突 发 强度 看 ,在 2001 
- 2010 年 时 间 段 的 早期 ,以 文 榕 生 、 白 国 应 等 为 代表 
的 科研 人 员 发表 的 文章 数 增长 较 多 ;而 在 此 时 间 段 的 
后 期 ,出 现 了 较 多 中 国 科学 院 文献 情报 中 心 在 读 研 究 
生 的 名 字 , 表 明 这 段 时 间 内 中 国 科学 院 文献 情报 中 心 
的 在 读 研究 生发 表 文 章 的 突 发 权 值 较 高 ,是 研究 的 新 
秀 力量 。 在 作者 一 关键 词 特征 项 的 组 合 上 ,2001 - 
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图 10 年 份 一 发 表 期 刊 一 作者 三 重 共 现 被 引 关联 强度 交叉 图 ( 研究 机 构 : 中 国 科 学 院 文献 情报 中 心 ) 
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多 重 共 现 的 突 发 关联 强度 交叉 图 ( 研究 机 构 : 中 国 科学 院 文献 情报 中 心 ) 


2010 年 间 早 期 以 文 榨 生 . 白 国 应 为 代表 的 研究 分 类 学 
的 关键 词组 合 较 多 ,后 期 热点 慢 慢 转移 并 分 化 ,形成 了 
百花 齐 放 的 局 面 ,可 以 看 到 不 同 作 者 与 多 样 化 研究 主 
题 的 特征 项 组 合 迅 速 增长 。 
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本 文 对 多 重 共 现 的 相关 概念 进行 了 概述 ,界定 了 
多 重 共 现 的 定义 和 研究 范畴 ,明晰 了 多 重 共 现 中 特征 
项 的 变量 符号 。 基 于 S，Morris 原 有 共 现 研究 的 基础 ， 
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EIR. 基于 科技 文献 多 重 共 现 的 数据 模型 理论 与 知识 发 现 应 用 范例 研究 [J]. 图 书 情报 工作 ,2019 ,63(9):61 -72. 


本 文 对 多 重 共 现 的 矩阵 定义 ,数据 组 织 形式 以 及 延展 
系数 的 计算 方式 进行 了 研究 。 通 过 对 多 重 共 现 的 基础 
理论 研究 , 本文 构 建 了 一 套 独特 的 多 重 共 现 基础 理论 
体系 ,该 理论 体系 包括 :多 重 共 现 的 定义 、 多 重 共 现 的 
研究 范畴 ,用 于 多 重 共 现 的 变量 符号 ,多重 共 现 的 矩阵 
定义 、 多 重 共 现 的 数据 组 织 形 式 以 及 多 重 共 现 的 延展 
系数 计算 公式 与 应 用 范畴 。 通 过 该 基础 理论 体系 的 构 
建 ,拓展 共 现 现象 的 研究 范围 ,为 共 现 分 析 走 向 多 角 
WE .多 维度 的 多 重 共 现 分 析 提供 了 基础 理论 的 支持 。 
而 多 重 共 现 的 可 视 化 方式 ,除了 多 重 共 现 交叉 图 
(基于 S. Morris 交叉 图 的 改进 ) 的 可 视 化 方式 外 ,其 实 
还 可 以 用 基于 社会 网 络 分 析 方法 的 多 模 网 络 图 显示 ， 
但 是 在 实证 研究 中 发 现 通 过 多 重 共 现 交叉 图 技术 能 
在 一 张 图 内 同时 显现 出 多 模 网 络 图 中 的 4 种 共 现 关 
Anm 重 共 现 交叉 图 当中 同时 显现 出 3 个 特 
征 肝 之 间 的 3 个 二 重 共 现 关系 (2 模 网 络 图 ) 以 及 一 个 
KARR (3 模 网 络 图 ) ,在 进 上 # 行 多 重 共 现 知 识 发 
珊 丽 分 析 过 程 中 更 为 直观 和 便捷 。 并 且 交 叉 图 技术 相 
绕 多 模 网 络 图 来 看 ,在 显示 效果 和 数据 方式 上 咯 胜 一 
筹 -因此 在 本 研究 当中 ,采取 多 重 共 现 的 交叉 图 技术 作 
EEI RR 行 多 重 共 现 的 知识 发 现 应 用 范例 研 
a 
CUM cH OR 共 现 的 交叉 图 可 视 化 方式 , 构 
“可 用 于 分 析 3 个 或 以 上 特征 项 共 现 关系 的 知识 发 
bos. eu IEEE E .被 引 关联 强度 以 及 共 现 突 
lc Hn 并 通过 实证 研究 ,选取 了 不 同 的 
多 重 共 现 应 用 案例 ,证 明 该 方法 可 应 用 于 研究 领域 , 研 
AVR .机 构 间 对 比 .研究 学 者 等 方面 的 分 析 ,同时 具 
有 较 好 的 分 析 效 果 。 由 于 该 方法 体系 具有 分 析 角 度 多 
维 化 和 分 析 方法 多 样 化 的 特点 ,因此 通过 该 方法 的 分 
析 , 除 了 能 够 实现 一 重 、 二 重 共 现 等 的 分 析 效果 外 ,还 
能 揭示 出 比 一 般 共 现 更 为 广泛 和 深入 的 知识 内 容 。 
在 多 重 共 现 的 研究 中 ,目前 已 针对 各 类 特征 项 组 
合 的 多 重 共 现 (如 机 构 一 期 刊 一 关键 词 . 年 份 一 关键 
词 一 机 构 、 年 份 一 关键 词 一 期 刊 .作者 一 期 刊 一 关键 
is] ,年份 一 期 刊 一 作者 等 ) 进 行 了 分 析 , 针 对 其 他 不 同 
特征 项 组 合 的 多 重 共 现 ( 如 作者 一 年 份 一 参考 文献 . 作 
者 一 引证 作者 一 引证 年 份 等 ) 的 知识 发 现 效果 ,以 及 针 
对 多 源 科技 文献 数据 (论文 .专利 和 专著 等 ) 等 的 多 重 
共 现 分 析 效 果 , 还 有 待 进一步 研究 和 证 明 。 结 合 多 重 
共 现 的 数据 模型 理论 和 交叉 图 知识 发 现 的 可 视 化 应 用 
案例 方式 ,可 根据 具体 特征 项 的 组 合 以 及 具体 科技 文 
献 类 型 组 合 来 研究 更 有 针对 性 的 数据 挖掘 算法 以 增强 


和 展示 深度 知识 发 现 的 效果 。 将 来 的 研究 将 继续 引入 
相关 知识 发 现 的 理论 方法 ,如 数据 挖掘 与 知识 发 现 \ 决 
策 树 .关联 规则 、 神 经 网 络 等 技术 ,以 发 气 更 多 更 深入 
的 多 特征 项 之 间 、 多 源 科 技 文献 之 间 共 现 的 一 般 规 律 
与 特殊 规律 ,并 可 以 对 其 知识 发 现 效 果 继 续 进行 深入 
研究 ,对 不 同 特征 项 组 合 和 不 同类 型 科技 文献 组 合 的 
分 析 效 果 进 行 归纳 和 总 结 。 此 外 基于 多 重 共 现 的 知识 
发 现 方法 还 可 以 针对 不 同 的 科学 领域 ,如 针对 其 他 自 
然 科 学 .社会 科学 等 不 同 领域 进行 知识 发 现 , 进 行 更 多 
的 实证 研究 ,以 进一步 验证 多 重 共 现 知 识 发 现 方法 的 


可 行 性 和 适用 范畴 。 
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Research on Data Model Theory and Knowledge Discovery Application Based 
on Multiple Occurrence of Scientific Literature 
Pang Hongshen 
Library, Shenzhen University, Shenzhen 518060 


SAbstract: [ Purpose/significance | Various entities and their associations are the basic units that constitute a variety 


of-otcurrence phenomena in scientific literature. By mining the associations between occurrence entities, occurrence anal- 
ysis can detect all aspects of the laws of scientific activities from different angles for scientific research management and re- 
sedfchers. It will provide a new perspective on the development of science from all angles and perspectives. [ Method/ 
process | By studying the basic theory of multiple occurrence, this paper constructs a set of unique basic theoretical system 
of multiple occurrence data model. The theoretical system includes definition of multiple occurrence, multiple occurrence 
résearch category, multiple occurrence variable symbols, multiple occurrence matrix definitions, multiple occurrence data 
organization forms, etc. In addition, based on the multiple occurrence cross-graph visualization method, this paper con- 
structs a knowledge discovery method that can be used to analyze the occurrence relationship of three or more characteristic 
items, including the occurrence relevance strength, cited relevance strength and occurrence burst strength method. [ Re- 
sult/conclusion | Through the construction of this basic theoretical system, the research scope of occurrence phenomena is 
expanded, which provides the basic theory support for occurrence analysis to multi-angle and multi -dimension occurrence 
analysis. And through empirical research , different cases of multiple occurrence applications are selected, proving that the 
method can be applied to the analysis of research areas, research institutions, institutional contrast, research scholars, 
etc. , and has good analysis results. Due to the multidimensional analysis and the diversification of analysis methods , this 
method can not only achieve the analysis effects of occurrence which includes one entity or two entities, but also reveal 
more extensive than the common occurrence and in-depth knowledge of content. 

Keywords. multiple occurrence multiple feature items occurrence multi -source data data model knowledge 
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